Как мы создавали Data 
Management Platform в Ozon 


Евгений Чмель 


Хй лиг 
(ні) 4,7 2021 


"ГГ. 


Адепаа 
1. Что такое ОМР 


2. Интерфеис конструктора 


сегментов 


3. Архитектура 


1 


Что такое DMP 


ОМР — платформа для построения сегментов пользователей 
для таргетинга. 


Сегмент — набор пользователей (изег ід и ѕеѕѕіоп ід), который 
может быть сформирован по различным правилам (фильтрам). 


Некоторые из них: 

- Город 

- Бренд 

- Категория 

— Поисковый запрос 


- Тип платформы 


Атрибуть сегмента: 


ID — номер сегмента 

Мате - название 

T TL - время зкспирации 

Туре – динамический или статический 

раје тета! — интервал существования сегмента 


Џоего дцапійу - количество пользователей в сегменте 


Примеры использования сегментов 
- Отправляем нотификации, рассылаем письма 
Показываем рекомендации, баннеры, страницы с товарами 


Ценообразование через маркетинговые акции 


(5) OZON Сейчас 


Распродажа детских товаров 2 
Только для Ozon Premium 


Приглашаем 
на чаепитие! 


Изначально сегменть создавались вручную: 
– Поступала заявка на новьй сегмент 


- Разработчик реализовьвал 
механику 


Основнои недостаток: тратилось много времени на написание кода. 
Количество заявок увеличивалось. 


Решили делать конструктор сегментов. 


На каких данных делать 


автоматизацию сборки 
сегментов? 


СегментБ можно строить на ивентах, которье создаются 
во время пользовательскои активности. 


Эти ивенть есть в двух хранилищах: СискНоизе и НОРЅ 


В итоге остановились на СисКНоизе. 


Пробовали делать запросы через Spark поверх HDFS, 
но скорость выполнения была в более чем 30 раз ниже, 
чем у СЇЇСКНОиве. 


Позже добавили еще один источник (Меса) 
для построения сегментов по заказам. 


Каждые сутки делается выгрузка по заказам из 
сервисной БД OMS (ОгаегМападетепіЅуѕїет) 
в Мег са. 


ТКАСКЕК 


ТКАСКЕК ------ г (СИскНоц5е) 


OMS 
(мегіїса) 


Событие — клик на товаре, просмотр, добавление в корзину и др. 


Нашли дешевле? 


10 299 Р moop 
1030» х 12 мес @ 


Б 515 баллов (5%) при оплате Огоп. СРЯ 


Д Узнать о снижении цени 


Добавить в корзину 


Event 
processing 


Tracker 
(ClickHouse) | 


Действия пользователя (поиск, открьтие 
карточки товара, добавление в корзину и 


др.) инициируют отправку ивентов в 
трекер 


Немецкий дом 
Перейти в магазин 


Добавить в Избранное 
Добавить в Ни 


Похожие товары 
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Интерфейс констј 
сегментов 


Действие 1 


Вьберите деиствие, которое должен совершить пользователь, чтобы попасть в сегмент или введите 501 запрос 


Просмотр товара на РОР - 


| + 4 е 


Категория т Один из выбра... У РМБА, МОРЕПРОДУКТЬ Х 


ДОБАВИТЬ ПАРАМЕТР 


ДОБАВИТЬ ДЕЙСТВИЕ ~ 


Исключить пользователя из сегментов С) 


#1956 ИНТЕРЕСОВАЛИСЬ ИЛИ ПОКУПАЛИ ТАТУ (7) X - 


Тип сегмента (1) 


(8) Динамический Статический 


Период сбора данных о пользователях 


ПОСЛЕДНИЕ 24 ЧАСА ПОСЛЕДНИЕ 3 ДНЯ ПОСЛЕДНИЕ 7 ДНЕЙ ПОСЛЕДНИЕ 14 ДНЕЙ 


СОХРАНИТЬ 
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создание сегмента на основе данных охоп трекера 
Условия запрось 


Источник - ClickHouse трекера 

Период сбора данных о пользователях - Последние 3 дня 
Событие - Просмотр товара на РОР 

Категория - Рыба, морепродукты 


Тип сборки сегмента 
Сборка по изепа 


Пользователь исключается из сегментов 


#1956 Интересовались или покупали ТАТУ © 
Глубина сегмента (1) 


РАССЧИТАТЬ 


Название сегмента (минимум 10 символов) (1) 


Интересовались морепродуктами 


Время существования пользователя в сегменте (1) 


Время в днях = 


5 


ИЗМЕНИТБ 


СОЗДАТЬ СЕГМЕНТ 
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Создание сегмента на основе данных Огоп трекера 


Условия попадания пользователя в сегмент 


Условия Запросы 


Источник - ClickHouse трекера 


501 запрос: 


SELECT 
user client id, 
count{) event counter 
FROM 


SELECT 
user client id 
FROM 
events 
WHERE 
attributes namespace = 'bx' 
AND ( 
( 
асііоп Туре = 'view' 
АМО обіесі Туре = 'ргойисї' 
АМО action widget = 'pdp-widget' 


) 
AND date BETWEEN '2021-04-26' 
AND '2021-04-29' 
AND һаѕАпу ( 
дісібсеїНіегагсћу ( 
" паутдат1оп саїедогу', 
то 1п 164 ( 
дісїбеї | 
"5Ки", 
"памтда топ саїедогу 14", 
топ 64 (објест 5Ки) 
) 
) 


ИЗМЕНИТБ 


СОЗДАТБ СЕГМЕНТ 
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Архитектура 


Гагеет іа 


{агае{ іа связывает сессии и user_id между собой 


Для ОМР одна свазка - один пользователь 


Пример сегментов: 


table segments [ 
( "66": | -- номер сегмента 
атр 0, | "source": "ozon tracker раде view", 
Бх Цан 5010 "recency": 1618659304, -- время добавления в сегмент 
) "ехрігеѕ а: 1634470504, -- время зкспирации = recency + IIL 
}, 
"365": { 


"source": "ozon tracker раде view", 
"recency": 1618659304, 
"expires_at": 1650195304, 


) 
| 


Создание сегмента 


Формирование 
расписания 
обновления 


ТВАСКЕК 
(СЇЇСКН 56) 


OMS 
(Vertica) 


dmp-segment-importer 


DMP изег5' links 
& schedules 
(Розтегез ОЇ ) 


DMP segments 


(Postgre5QL) 


) 


"formula": Ган, 
"requests": 
( 
роду": 4 


"каккег": 4 
"Sand": | 
{ "Ѕеуепі аЦаз": "міем рдр ргодисс"у, 
("5дате а1іаѕ": "ГА5Т 60 ПАҮ5"), 


("57 1е14": "ргорег ез Бгапд 19" ,"5уа1ие": 


) 
) 
), 
"source": "tracker" 
), 
с 
роду": 4 
"filter": 4 
"gand": | 
("б5еуепс аЦаз": "Гамогісе ргодиск"), 
("5дате аїїа5": "|А5Т 60 РАУ5"), 
("57 1е14": "ргорег ез Бгапд 19", "5уа\ие": 
) 
) 
), 


"воцгсе": "tracker" 


) 


), 
"ѕе1есїіоп еп. Ту": "Ц5ЕВ ТҮРЕ Ір" 


87314531,"5орегабог": 


87314531, "Ѕ5орегаїог": 


"бед") 


" seq "Э 
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Пример запроса для СисКкНоизе 


SELECT изег слеп! іа, 
соипЦ) емепі соипїег 
FROM ( 
SELECT иѕег слеп! 19 
FROM events 
WHERE attributes патеѕрасе = 'bx' 
AND ( 
(action_type = 'мем АМО object_type = 'product' AND action міадеї = рар-улааег) 
AND date BETWEEN '2021-03-04' AND '2021-05-03' 
AND has([87314531], dictGetUlInt64('sku', 'orand_id', toUlnt64(object_sku))) 


) 
) 
GROUP BY user слеп! іа 
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Запрос в СіскНоиѕе, который состоит из > подзапросов 
по каждому действию (событию), выполняется гораздо 
медленнее, чем параллельное выполнение каждого подзапроса. 


Лучше отправить несколько мелких запросов и потом применить 
алгоритм сортировочной станции по формуле для полученных 
пользовательских ід ов. 


Такой подход позволяет использовать разные источники данных 
для построения сегментов. 
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Сборка геа!- те-сегментов 


DMP иѕегѕ' links 
(PostgreSQL) 


DMP segments 
(PostgreSQL) 


dmp-events-consumer 
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Объединение сегментов 


Выполняется при аутентификации пользователя 
Сегменты сессии объединяются с сегментами пользователя 


session's 
segments 
(A) 


user's 
segments 
(A | B) 


union segments 


user's 
segments 


(B) 


25 


Выдача сегментов 


DMP segments 
(PostgreSQL) 


services 


DMP users' links 


(PostgreSQL) 
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DMP segments 


й с | DMP иѕегѕ' links 
(PostgreSQL) 23 (Розгргтезо 


атр-ѕевгпепі-ехрогїег 


ОМР 
(СискНошзе) 


Зкспорт и пересечение 
сегментов 


dmp-statistics-api 


services 
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атр-ѕїаіѕіісѕ-арі 


Оперирует сегментами как множествами. 
Получение количества пользователей по формуле на определенную 


дату: 


curl \ 
-X POST "http://dmp-statistics-api.bx.stg.s.03.ru:80/v1/segments/expression/quantity" \ 


-d Ч \"огтиіа\": \"372 & 536 8 5761", Чагдейае“: У2020-06-15108:03:08.485 4) 


Ответ: 


| 
"quantity": 531 789, 


"targetDate": "2020-06-15100:00:007" 
| 


Примеры: 
— "(372 & 536) | (600 & 602)" — объединение двух пересечений 
- "372\536" — все, что есть в 372, но нет в 536 


Получение списка пользователей в сегменте: 
cur 


-X POST "Һіїр://атр-ѕїаіѕіісѕ-арі.ох.ѕї9.5.03.ги:80/1/ѕедтепі/иѕеге' 
-d "У ИК: 100, \"segmentld\": \"376\"}" 


Запрос в DMP (ClickHouse) для получения 
пересечения трех сегментов: "18243" 


SELECT соипї() 
FROM (SELECT атр іа 
FROM атр ѕедтепіѕ Пізіогу 
WHERE segment га = 1 
апа даје = да!е 
АМО атр га IN (SELECT атр га FROM атр ѕедтепіѕ ћіѕїогу 


WHERE ѕедтепї 14 = 2 апа да = 'date') 
АМО атр га IN (SELECT атр іа FROM атр ѕедтепіѕ Пізїогу 


WHERE зедтеп! іа = З апа даје = 'да!е )) 
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Большие ЈБОМ 5 стали проблемой #1. 
Тратитса много процессорного времени на 
распаковку и сжатие )5ОМВ. 


Деградация скорости записи и чтения из-за роста јоопр. 


DMP segments DMP иѕегѕ' links 
(PostgreSQL) (PostgreSQL) 


dmp-segments-gc 
(выполняет удаление 
старых сегментов по 
расписанию) 
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ТКАСКЕК 
(СіскНоцѕе) 


DMP segments 
(PostgreSQL) 


OMS 
(Vertica) 


DMP users' links 
(PostgreSQL) 


dmp-events-consumer 


tracker 


oms и др 
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Батч сеичас 


Батч dmp-segments-worker 
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ТКАСКЕК 
(СіскНоиѕе) 


ОМ5 
(Мешса) 


segments 


tracker 


DMP segments 
(Postgre5QL) / 


DMP иѕегѕ' links 
(Postgre5QL) 


/ | oms n др 
! 
| 
| _ | 
\ 
ний 
\ 
\ 
у ч 
N ~ 
~ ~ dmp-segments-worker 
ыг" = = – (обновление сегментов 


== 
9 ши = 


получаемых через Kafka) 
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ТВАСКЕВ OMS 
{ClickHouse)} (Уегпса) 


= = segments ü 
DMP б й ~ 
А - -- 
(СнскНоцзе) дтр-зертег!-ехропег dmp-segment-importer „ м \ 
> 1 
КЕ tracker , 
DMP segments , -d І 
(Рочгрге501) , І 
/ І 
! / 
/ 
i 
/ 
/ 
/ 
/ 
/ 
~“ / 
Р Р DMP изегв" links , 
/ (PostgreSQL) , 
/ ѓ 
, / 
/ 
4 / 
г 2ге / 
dmp-segments-gc / pf а ! 
(выполняет удаление 7 Ро ! 


старых сегментов по 
расписанию) 


- dmp-segments-worker 
че ~ (обновление сегментов 


получаемых через Kafka) 
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дтр-еуеп!з-сопзитег — построение геа|-Нте-сегментов 
по ивентам из каїка + тегде-сегментов; 


атр-арі — отдает сегменты по запросу с изег іа или 
session id; 
dmp-segments-importer — конструктор сегментов + API 


по добавлению пользователей в сегменты: 


атр-ѕедтепіѕ-ехрогїег — экспорт сегментов в ClickHouse 
для формирования статистики; 


dmp-statistics-api — получение глубины сегментов и их 
пересечений за произвольную дату. 
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Оптимизация (МЛР) 


- атр-зедтетз-дс — удаление сегментов с 
истекшим ТТЕ. Чистка нужна для уменьшения 
потребляемого места на диске и ускорения операций 
ВИ над (500, который содержит сегменты. 


- атр-зедтеп!5-уогкег -- группировка нескольких 
сегментов по пользователю в батче с целью 


уменьшить количество операции записи в 
PostgreSQL. 
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Проблема 1: 
частая смена сессии тестовых аккаунтов 


Торможение мержа сегментов для больших связок в 
а тар 


Решение: 


Ограничили количество сессий для одного target а + 
изменили алгоритм мержа. 
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Проблема 2: 


С одним мастером уперлись в лимиты (17К) |Орз. 
Таблица segments быстро росла  -»  Юоаб. 
Стали делать ра гераск раз в месяц (4-6 часов и не 
всегда удачно с первого раза. Для рд гераск желательно 
снизить интенсивность записи. 


Решение: 


Пошардились на 12 пар (таѕіег-ѕупс реплика). 


Проблема 3: 


Лишние перезаписывания сегментов. 


Обновление сегмента чаще всего выполняется раз в сутки. 
Например, фильтрация может выполнятся за последние 90 дней. 


с: || ||| | | 
Еј ||| ||| |- 
Ши... її. 


Можем получить 10М пользователей. Много! 


Дни запуска обновлений 
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Решение: 


Стали выполнять пересечение отфильтрованного набора 
пользователей с набором ~ DAU -> сократили количество 
апдеитов по каждому сегменту. 


только пользователи за интервал (сиггеп! те - [јаз ирааге Ште) 


Е | || 
ЦЕ | | 
ПЕЕ | 


Дни запуска обновлении 
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До шардинга 


0 / 5 


Load Average 


Ал 11111111 || ЯМ! 


жээ шиш МАЈА, 


й 9 Й уда | | 
Мр 


њи 


После шардинга 


а тар 
10K 
Зкспорт в ClickHouse 
5K 
5 \ | А # ё Еј 
НЕЖНА | Не, 
10/5 

20 К 
ны активная запись в таблицу segments 
10K мастер 


реплика 


еу за одма ИН МАО СИМ БИ ян 


КА 
і ЛИМ л 


заи imh ЙГ _ 


= _ | і. БА 


Ги m г. = 


РАНИ 


"ма, ЛЕ С Иг“ _ | 


Load Average 


реплика 


= =H ==. ма, mi Mi - m 


Ги dh Ги „=. 


2021-05-12 22:54:05 
_ = public.segments: 


— 
= 
о 
да 
0 

=. 
ко 
= 
Ка 
-- 


Выводы 


— Сразу делать геа!-Шпе-сборку сегментов. В этом случае надобность в 
пересборке практически отпадает; 


- Чем больше ЈЗОМВ, тем сильнее ощущается деградация скорости 
чтения/записи (СРО, disk IO). Встречаются экземпляры по 19Кбайт: 


– Обновлять сегменты лучше батчами (3-4К пользователей); 


- При построчной модели можно столкнуться с сильной деградацией чтения 
из-за фрагментированности данных. ,/5ОМВ лучше, если сегментов много; 


— Лучше несколько маленьких таблиц, чем одна большая -> более быстрое 


выполнение автовакуума, скорость накатывания дампа 
(проще обслуживать). 
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Спасибо за внимание! 
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